[Home] AI로 돌아가기
[관련 링크] PCA - 주성분 분석
[Wikipedia] Dimensionality reduction
Dimensionality Reduction (차원 축소)
차원 축소는 고차원 데이터를 보다 낮은 차원으로 변환하여 데이터의 구조적 특성을 유지하면서 불필요한 정보를 제거하는 과정이다.
(1) 왜 차원 축소가 필요한가?
AI/머신러닝에서는 데이터가 수백~수천 개의 특성(feature)을 가질 수 있다. 이럴 경우:
- 계산 비용이 커짐
- 시각화가 어려움
- 차원의 저주(Curse of Dimensionality) 발생
차원 축소를 통해 불필요한 변수를 제거하면 모델 성능 향상과 학습 시간 단축 효과가 있다.
(2) 주요 방법
- PCA (Principal Component Analysis): 가장 널리 쓰이는 기법으로, 데이터의 분산을 최대화하는 새로운 축으로 변환
- t-SNE (t-distributed Stochastic Neighbor Embedding): 고차원 데이터를 2D/3D로 시각화할 때 자주 사용
- UMAP (Uniform Manifold Approximation and Projection): t-SNE보다 빠르고 보존성이 좋은 시각화 기법
- Autoencoder: 인공신경망을 활용한 비선형적 차원 축소
- LDA (Linear Discriminant Analysis): 클래스 간 분리도를 기준으로 축소 (지도학습)
(3) 지도/비지도 차원 축소 비교
구분 |
비지도 차원 축소 |
지도 차원 축소 |
대표 알고리즘 |
PCA, t-SNE, UMAP, Autoencoder |
LDA |
레이블 사용 여부 |
사용 안 함 |
사용함 |
용도 |
패턴 발견, 시각화 |
클래스 분리, 예측 성능 향상 |
(4) 응용 분야
- 고차원 이미지, 음성, 텍스트 데이터 전처리
- 데이터 시각화 및 탐색적 분석
- 노이즈 제거 및 특성 선택
- 컴퓨터 비전, 바이오인포매틱스, 추천 시스템 등 다양한 분야